Research: Semantic web crawlers and Tabular extraction

less than 1 minute read

Published:

Research: Semantic web crawlers and Tabular extraction

dataset link of the source dataset

1. What is Semantic web(语义网):

语义网是一系列技术栈,这类技术栈用于描述、关联万维网中数据、资源之间关系。用简易的话来说,语义网让网络上的数据变得机器可读,理解文字里面的重要信息,以及链接之间的相互关系

  • 语义网,链接数据和Web3.0基本上是一个概念,但和语义网络截然不同。
  • 语义网络(Semantic Network)是60年代提出的一种知识表达模式,不同的概念节点之间用箭头表示关系。语义网络有利有弊
  • 优点包括(1)易于理解和诠释(2)相关概念容易聚类。
  • 缺点包括(1)节点和边的值没有统一的标准(2)因为没有标准,所以难以融合不同来源的数据(3)无法区分概念节点和对象节点(4)
  • 为了解决前两个缺点,有了RDF。为了解决后两个缺点,有了RDFS/OWL(Ontologies, Taxpmp,oes)
  • 比如DOM文档模型,XML等统一的格式
  • 用另外一个比喻,语义网的目的是减少数据流动的摩擦,其中包括了人与机器的摩擦(缺少注释互相不理解),和机器与机器之间的摩擦(定义名字,方便搜索和定位)